查看原文
其他

慢思考 - G.E.B作者侯世达改变了对深度学习和人工智能风险的看法?- 暨CPO的个人读书私获

ai汤源 AI范儿 2023-08-21


图|汤源

文|汤源

Douglas Hofstadter目前任职Indiana大学认知科学家与杰出教授

题记

侯世达及其作品G.E.B(Gödel, Escher, Bach: an Eternal Golden Braid, also known as GEB:集异璧之大成),可以算作是笔者对智能、及智能现象产生兴趣的导师与启蒙书。

If you want to find the secrets of the universe, think in terms of energy, frequency and vibration.

—Nikola Tesla

“撒在桌面的随机细粉末,在摩擦引起的桌面震动下形成了有规律的复杂几何形状

尼古拉·特斯拉说过,如果你想发现宇宙的秘密,要从能量频率震动等三个方面去思考。

而上面的动图中,复杂的有loop规律的几何形状,似乎来自于随机的细粉末与频率&震动传递的能量共舞...

GEB在书里则分别代表具有循环(loop)与self-inference(自指)特征的3个现象:哥德尔的数理逻辑、艾舍尔的艺术版画和巴赫的赋格音乐。侯世达在70年代末的一段时期里,这三个现象在作者脑海里交织在一起,令其深深着迷,作者认为这三种现象都与Intelligence有关,并启发了他在冰河期中对人工智能的思考与研究。

赋格音乐似乎是在听觉的频率上与智能相关;错维悖接的艺术版画则在视觉上挑动人脑神经;数理逻辑的局限也意味着人脑思维逻辑的局限,意识之外是不是还有更本质的存在如数学(math)?

那智能与宇宙的关系呢?

按笔者今天的思考模型来解读特斯拉说的宇宙秘密的三要素:频率(frequency)与时间相关,震动(vibration)则关乎空间,能量(energy)似乎是前面两者的维系,是频率与震动现象的基底being。

在今天LLM的场景,能量(energy)无疑就是支撑万亿级以上ANN的算力(computation),频率(frequency)呢就是token的处理、生成以及集成速度,震动(vibration)则指的是各种领域知识交融的embedding计算空间。

▩侯世达(Doug Hofstadter)是谁?
Douglas Richard Hofstadter(自称中文名:侯世达)
道格拉斯-理查德-霍夫斯塔特(Douglas Richard Hofstadter)(生于1945年2月15日)是美国认知科学、物理学和比较文学的学者,他的研究包括与外部世界有关的自我意识、意识、类比制造、艺术创作、文学翻译以及数学和物理学的发现等概念。他在1979年出版的《哥德尔、艾舍尔、巴赫:一条永恒的金辫子》一书获得了普利策一般非小说奖和国家科学图书奖(当时称为美国图书奖)。他在2007年出版的《我是一个奇怪的循环》一书获得了《洛杉矶时报》科技图书奖。

△注:来自wikipedia

▩G.E.B. - 一本启蒙智能及智能现象思考的奇书?

Gödel, Escher, Bach: an Eternal Golden Braid, also known as GEB(中文:哥德尔、艾舍尔、巴赫-集异璧之大成)
哥德尔、艾舍尔、巴赫:一条永恒的金线,也被称为GEB,是道格拉斯-霍夫斯塔特1979年出版的一本书。通过探索逻辑学家库尔特-哥德尔、艺术家M.C.艾舍尔和作曲家约翰-塞巴斯蒂安-巴赫的生活和作品中的共同主题,该书阐述了数学、对称性和智力的基本概念。通过小故事、插图和分析,该书讨论了系统如何在由 "无意义 "的元素组成的情况下获得有意义的背景。它还讨论了自我参照和形式规则、同构性、交流的意义、知识如何被表示和存储、符号表示的方法和限制,甚至 "意义 "本身的基本概念。
为了回应对该书主题的困惑,霍夫斯塔特强调,《哥德尔、艾舍尔、巴赫》不是关于数学、艺术和音乐的关系--而是关于认知如何从隐藏的神经机制中出现。书中有一点提出了一个关于大脑中的单个神经元如何协调以创造一个统一意义上的连贯思维的比喻,将其比作蚂蚁群中显示的社会组织 。

△注:来自wikipedia

▩I am a strange loop - 一本对GEB中loop意义的探索?

I am a strange loop(中文:我是一个奇怪的循环)
《我是一个奇怪的循环》是道格拉斯-霍夫斯塔特2007年的一本书,深入研究了怪圈的概念来解释 "我 "的感觉。怪圈的概念最初是在他1979年出版的《哥德尔、艾舍尔、巴赫》中提出的。
“归根结底,我们是自我感知、自我发明、锁定的海市蜃楼,是自我参照的小奇迹。” - 道格拉斯-霍夫斯塔特,《我是一个奇怪的循环》,第363页
霍夫斯塔特此前曾对《哥德尔、艾舍尔、巴赫》(Gödel, Escher, Bach)获得1980年普利策奖普通非虚构类奖项的情况表示失望。在其20周年纪念版的序言中,霍夫斯塔特感叹这本书被认为是一个没有中心主题的整齐的大杂烩。他说:"GEB是一个非常个人化的尝试,想说有生命的人是如何从无生命的物质中产生的。什么是自我,自我怎么能从像石头或水坑一样无私的东西中产生出来呢?"
霍夫斯塔特在《我是一个奇怪的循环》中图通过关注和阐述哥德尔、艾舍尔、巴赫的中心信息来弥补这个问题。他展示了自我参照系统的属性,在哥德尔的不完全性定理中得到了最著名的证明,可以用来描述思想的独特属性 。
作为对 "我 "的意义的探索,霍夫斯塔特探索了他自己的生活和他所亲近的人。
该书获得了好评。华尔街日报》将该书称为 "迷人的"、"原创的 "和 "发人深省的"。

△注:来自wikipedia

侯世达谈AI现状访谈及解读

这波AI浪潮,隐隐觉得一直少了一个人的公开发声,那就是:Douglas Richard Hofstadter(自称中文名:侯世达)。直到最近Game Thinking TV在油管上放出了一段侯世达老先生的访谈视频。题为:

▩播客采访中,对于人工智能的看法,侯世达脱口而出-“火”,相对于a16z老安德森提到“火”指的是人类学会利用火、生成火带来的生存优化,侯世达指的是人类在利用火之前,对“火”的恐惧。
对著名人工智能研究员侯世达(Doug Hofstadter)的播客采访(2023-06-29发布于 https://youtu.be/lfXxzAVtdpU  ),讨论了他的职业生涯和目前对人工智能的看法(via Edward Kmett)。
侯世达之前曾大力批评GPT-2/3模型(以及深度学习和重度计算的GOFAI)。这些批评被广泛传播和引用,显然很多人认为Hofstadter是一个令人信服和值得信赖的权威,当他对深度学习的能力和前景持否定态度时,所我发现他最近的评论(这些评论放大了他至少从2014年起就一直在私下说的东西)相当有意思
下面我摘录了他讨论“DeepLearning进展和AI风险”的后半部分:
▩Q:......GEB中的哪些观点在今天最重要?
D.H:......在我的书《我是一个奇怪的循环》中,我试图阐述什么才是真正的自我或灵魂。我喜欢用 "灵魂(soul) "这个词,不是在宗教意义上,而是作为 "我(I) "的同义词,一个人类的 "我",大写的 "我"。那么,是什么让一个人能够有效地说出 "我"?是什么证明了该词的使用?什么时候计算机可以说 "我",而我们却觉得背后有一个真正的 "我"?
我的意思不是像你给药店打电话,聊天机器人,或者你想称之为的其它什么,在电话里说,"告诉我你想要什么。我知道你想和一个人说话,但首先,用几个词告诉我你想要什么。我可以理解完整的句子。"然后你说了些什么,它就说:"你想重新配药吗?"然后当我说是的时候,它就说,"抓住你了",意思是 "我抓住你了"。所以它表现得好像那里有一个 "我",但我完全没有感觉到那里有一个 "我"。对我来说,它不像是一个 "我",它感觉像是一个非常机械的过程。
但对于像ChatGPT-3或GPT-4这样更高级的东西,感觉那里有更多值得称为 "我 "的东西。问题是,我们什么时候会觉得这些东西实际上值得被认为是成熟的,或者至少是部分成熟的 "我"?
我个人担心,这种情况正在发生。但它不仅仅是现在发生的。不仅仅是某些正在出现的东西与人类意识或人类自我相似。它们也非常不同,从一个方面来说,这让我感到非常害怕。他们的知识特别多,他们的速度特别快。因此,如果我花一个小时做一件事,ChatGPT-4可能只需要一秒钟,甚至不到一秒钟,就能完成完全相同的事情。
这表明,这些实体,不管你怎么想,很快就会成为,现在他们仍然会犯很多错误,我们不能说他们比我们更聪明,但很快他们就会,他们很可能比我们更聪明,远比我们更聪明。而到那时,我们将在某种意义上退居幕后。我们将把接力棒交给我们的继任者,无论好坏。
我可以理解,如果这发生在一个很长的时期内,比如几百年,这可能是好的。但这是在几年的时间内发生的。它就像一个潮汐,正以前所未有的、无法想象的速度冲刷着我们。对我来说,这是相当可怕的,因为它表明,我过去相信的一切都在被推翻。
......
▩Q:有哪些事情特别让你感到害怕?有哪些问题是你真正...
▩D.H:当我开始研究认知科学和思考心灵(mind)与计算(computation)的时候,你知道,那是很多年前,大约是1960年,我知道计算机是如何工作的,我知道它们是多么的异常严格。你犯了最轻微的打字错误,就会完全毁掉你的程序。调试是一门非常困难的艺术,你可能不得不多次运行你的程序,以便将错误排除。然后,当它运行时,它会非常死板,它可能不会完全做你想做的事,因为你没有准确地告诉它你想做什么,你不得不改变你的程序,不断地。
计算机是非常死板的,我在成长过程中对计算机能做什么或不能做什么有某种感觉。我认为人工智能,当我听到它的时候,是一个非常迷人的目标,那就是让死板的系统表现得流畅。但对我来说,那是一个非常漫长、遥远的目标。它似乎是无限遥远的。我觉得人工智能就是试图让非常死板的系统表现得像流体一样的艺术。我觉得这将需要大量的时间。我觉得这将是几百年后的事情,甚至是像远离人类思维等级的东西会渐渐接近人类思维的水平,但是从底层。
我从未想象过计算机会与人类智力相媲美,更不用说超越了。而在原则上,我认为它们可以与人类的智力相媲美。我不认为有任何理由它们不能。但对我来说,这似乎是一个非常遥远的目标,我并不担心它。但是当某些系统开始出现的时候,也许是20年前(笔者注:Geoffery Hinton在工程计算上实现ANN的反向传播?),它们让我暂停了之前的想法。然后,这种情况开始加速发生,遥不可及的目标和计算机不应该做的事情开始颠覆。加里-卡斯帕罗夫被 "深蓝 "击败,然后是围棋系统,围棋程序,嗯,可以击败世界上一些最好的围棋选手的系统。然后,系统在语言之间的翻译方面变得越来越好,然后对自然语言中的困难问题做出可理解的回答,甚至写诗。
而我的整个知识大厦,我的信仰体系......当你对世界的一些最核心的信念开始崩溃的时候,这是一个非常痛苦的经历。尤其是当你认为人类很快就会黯然失色的时候。感觉好像不仅是我的信仰系统在崩溃,而且感觉好像整个人类很快就会黯然失色,被抛弃在尘埃中。人们问我,"你说的'很快'是什么意思?" 而我不知道我真正的意思。我没有任何办法知道。但我的一部分人说5年,一部分人说20年,一部分人说,"我不知道,我不知道。" 但是进展,加速的进展,是如此出乎意料,完全让我措手不及,不仅是我自己,还有很多很多人,以至于有某种对即将到来的海啸的恐惧,这将使全人类措手不及。
目前还不清楚这是否会意味着人类的终结,即我们所创造的系统会摧毁我们。不清楚情况是否如此,但肯定是可以想象的。如果不是这样,它也只是使人类成为一个非常小的现象,与其他更聪明的东西相比,它将成为我们无法理解的,就像我们对蟑螂一样无法理解。
▩Q:这是个有趣的想法。[紧张的笑声]
D.H:嗯,我不认为这很有趣。我认为它是可怕的。我讨厌它。我几乎一直在想它,每一天都在想。[Q:WOW。] 它压倒了我,使我感到沮丧,我已经很久没有沮丧过了。
▩Q:那真的很紧张。你有一个独特的视角,所以知道你有这种感觉是非常有力的。
......
Q:LLMs,大型语言模型,如何影响了你对人类思维和创造力的看法?
▩D.H:当然,它加强了人类创造力等等是来自于大脑硬件的想法。除了大脑的硬件,也就是神经网络,没有别的东西。但有一件事让我完全吃惊的是,这些LLM和其他类似的系统都是前馈(feed-forward)的。这就像神经元的发射只朝一个方向进行。我从来没有想过,深度思考可以从一个只有一个方向前进的网络中产生,从只有一个方向的神经元发射中产生。这对我来说没有意义,但这只是表明我很天真。
这也让我感觉到,也许人类的思想并不像我在写《哥德尔、艾舍尔、巴赫》和写《我是一个奇怪的循环》时想象的那么神秘、复杂和不可逾越的复杂。在那些时候,相当多年前,我觉得正如我所说的,我们离达到任何可能与我们匹敌的计算能力都非常遥远。它在这以前正变得越来越流畅,但我不认为它会马上发生,你知道,在很短的时间内。
所以这让我觉得自己很渺小。它让我觉得,在某种意义上,与这些计算系统相比,我就像一个非常不完美的、有缺陷的结构体,你知道,这些计算系统拥有比我多一百万倍或十亿倍的知识,而且速度快十亿倍。这让我感到非常自卑。我不想说活该被淘汰,但它几乎是这样的感觉,好像我们,我们所有的人类,在不知不觉中,很快就会被淘汰,而且是正确的,因为我们是如此不完美,如此易犯错。我们总是忘记事情,我们总是混淆事情,我们总是自相矛盾。你知道,这很可能只是表明我们是多么有限。
......
Q:哇。所以让我继续通过问题。在我们人类的历史上,是否有一个时期有类似的东西让很多聪明人感到恐惧?
▩D.H:火(fire)。(笔者注:在昨天发布的a16z的专访文章中,对于这波AI的看法,安德森也提到了“火”,不过安德森指的是人类学会了利用火、生成火后的生存优化)
▩Q:你几乎脱口而出,是吗?那么我们能从那里学到什么?
▩D.H:不,我不知道。谨慎,但你知道,我们可能已经走得太远了。我们可能已经让森林着火了。我的意思是,在我看来,我们已经做到了这一点。我不认为有任何办法可以回头。
当我看到Geoff Hinton的采访时,他可能是所有这些类型的系统发展中最核心的人物,他说了一些引人注目的话。他说他可能会后悔他一生的工作。他说,"我的一部分对我一生的工作感到遗憾"。采访者接着问他这些发展有多重要。" 它们和工业革命一样重要吗?历史上是否有类似的东西让人们感到恐惧?" Hinton想了一下,他说:"嗯,也许和车轮一样重要。"

△注:来自视频访谈脚本节选

▩AI范儿CPO的“快思考”

正如题记所说,G.E.B及其作者侯世达,可以算作是笔者对智能、及智能现象产生兴趣的启蒙书和导师。
那还是2020年初,在“得心社”读“儒释道”的时候,一路看下来,隐隐约约觉得儒释道都是自我修行的范畴,是和自我意识的纠缠,但是从儒释道的茫茫书海中,却找不到进一步解构的入口,似乎一直在一种中国式哲学里打转转;于是乎又循着西方哲学、人工智能、意识、脑神经科学、人体科学、心灵、人脑学习等杂七杂八看下来,直到最近一头扎进这波AI现象及其背后的范式思考中。
今天先把我对儒释道的读书心得留在这里,算是对3年疫情中读书生活的一个特殊的纪念与总结

现在看起来,儒释道的意识纠缠本质上是“皆言时”,前两天的公众号文章:深思考-时间是一种幻觉?现实是一种实用模型的近似构建?数学是真实的吗?-George Holz专访解读系列一「极度烧脑!慎入!」,也不止一次的把我对“什么是永恒的真”拉到之前读书留下的思考痕迹中产生碰撞,时间只是一种压缩器,让意识的大模型无限近似我们感知的现实,而永恒的真,与时间无关:智能系统诞生于复杂性(complexity)的必然以及作为基底的数学(math)。

“左:哥德尔,右:巴赫,中:Andrew Krill根据艾舍尔著名作品的AI艺术尝试

重新回到侯世达与他的两本书

GEB这本书留给我最大的收获,是接触到巴赫的赋格音乐,在不同声部上的循环,不带任何情绪,非常适合无休止的聆听,目前已经作为明天早起拉伸运动时的必备背景音乐。

艾舍尔的版画中那些二、三维的错觉与悖接,则每次看到都感觉颅内的某个部分被挑动(按今天的说法就是被下prompt),上图中就是AI艺术家Andrew Krill根据艾舍尔的“Drawing Hands”做的再创作,并被AI范儿用在多篇公众号文章中作为插图。和今天侯世达的采访内容似乎有某种隐喻:人类与AI,在今天,能否像火一样最终被人类利用与互相成就?还是像侯世达说的,像第一次看到火时怕被未知吞噬的恐惧?

哥德尔的定理当时并没有看的太明白,但印象很深刻的是,形式数学定理证明到最后否定了自己,以我当时的理解程度得到的是:逻辑本身也有局限性,并扩大到个人基于逻辑建立的世界认知所继承的局限性。在数学和可计算性理论中,自指(self-reference,也被称为阻抗性)是证明许多系统的局限性的关键概念。哥德尔定理用它来表明,任何形式上一致的数学系统都不可能包含所有可能的数学真理,因为它无法证明关于其自身结构的一些真理。计算理论中对等的停顿问题表明,总有一些任务是计算机无法完成的,即对自身进行推理。这些证明与数学悖论的悠久传统有关,如罗素悖论和贝里悖论,并最终与古典哲学悖论有关。自指在数学、哲学、计算机编程、二阶控制论和语言学以及幽默中都有研究和应用。自指的语句有时是自相矛盾的,也可以被认为是递归的。

书的最后一个章节留给了人工智能,鉴于作者成书所在70年代末,人工智能实际处于60年代末的明斯基Minsky时刻-长达20年的冰河期(可参考公众号文章:啥?“炼丹”、“挖矿”、“蒸馏”,还有”智能体“?-「AI范儿」一文厘清大模型范式创业投资与应用万象:AI²Paradigm),所以就像本文提到的访谈中,作者侯世达本人,也认为当时真正具备像GEB这类人类智慧特征的人工智能还很遥远

《I am a strange loop》这本书我觉得作者完全脱离人工智能的范畴,更多的是在意识与心灵层面,将GEB一书中的无生命loop现象上升为有生命的“I”的构建,留在我印象中更多的是作者在失去至亲后的自我沉思与怀念。当然在访谈中,侯世达惊讶于GPT对于人类语言的操控能力,认为在很多方面已经具备“I”的特征,并超越人类。

▩视频访谈在lesswrong.com社区引发的讨论

在撰写本文时,侯世达的采访节选,在lesswrong社区得到了33条评论。其中最受大家关注的也最易反馈的还是这条感叹贴

@Ben Amitay
“It is beautiful to see that many of our greatest minds are willing to Say Oops, even about their most famous works. It may not score that many winning-points, but it does restore quite a lot of dignity-points I think.”
看到我们许多最伟大的思想家愿意说 "哎呀",甚至对他们最著名的作品也愿意说 "哎呀",这看起来非常美好。我认为这可能不会得到那么多胜利点数,但它确实恢复了大佬们相当多的尊严点数。

△附:来自lesswrong播客评论

确实,这波AI范式及其带来的影响,确实让非常多的大佬大跌眼镜,公众号文章:陆奇博士“我的大模型世界观”刷屏之外,也有提到陆奇在新范式系列巡讲中的“holy shit“现象:


@mishka 针对的是访谈中侯世达说的下面一段话-有关GPT的Transformer工作原理
“But one thing that has completely surprised me is that these LLMs and other systems like them are all feed-forward. It's like the firing of the neurons is going only in one direction. And I would never have thought that deep thinking could come out of a network that only goes in one direction, out of firing neurons in only one direction. And that doesn't make sense to me, but that just shows that I'm naive.”
我也有同样的感觉,直到我读过2020年6月的这篇论文:Transformer是RNN具有线性注意力的快速自回归Transformer。
事实证明,在自回归模式下使用Transformer(通过连接之前的输入和新的输出token,将输出token添加回输入,并通过模型反复发送输入的新版本),导致它们模仿递归神经网络的动态,这使事情变得更加清晰......
在思考这个特殊的递归时,我注意到,看起来事情在这个自回归动力学的迭代中变化不大,因为我们每次只是增加一个token。
那些成功对抗梯度消失问题的人工递归架构的关键属性是,单次迭代的递归看起来像Identity + epsilon(所以,X -> X + deltaX,每次迭代的deltaX很小,例如,见这篇2018年的论文《克服普通递归网络中的梯度消失问题》,其中解释了LSTM等的情况,并解释了如何为普通递归网络实现这一点;简单的解释见我对这篇论文第一版的评论《理解递归身份网络》)。
因此,我强烈怀疑在自回归模式下使用的Transformer中发生的递归也是这种情况(因为输入从迭代到迭代都有轻微的变化)。
但我不知道这在多大程度上对生物递归网络也是如此。一方面,我们的感知似乎随着时间平稳地变化,这似乎也是生物案例中X->X+deltaX性质的逐渐变化的论据。但我们对生物案例的理解并不充分......
我认为递归对于LLMs来说实际上是相当重要的。参照Janus的模拟器理论,该理论现在发展得相对较好(例如,见最初的模拟器或我对该理论的最近状况所做的简要说明5月23日-2023年-状况更新)。这是一个自回归模拟的事实,正在发挥关键作用。
但我们确实不知道生物复现的复杂性与人工复现网络的相对简单性是否有很大关系......
我认为计算中的梯度下降是超级重要的(这显然是负责少数次学习现象的关键机制)。
而且,向量的大规模线性组合("人工注意力")似乎也超级重要(在这个意义上的起点是在2014年将这种人工注意力机制加入到RNN架构中)。
@Aaro Salosensaari: "但显然你认为关于模型结构本身的类似RNN的东西是很重要的?"
是的,这可能与我的个人历史有关,那就是我一直在关注是否可以将算法表达为神经机器,以及是否可以有意义地谈论连续变形的程序。
然后,对于图灵完备性,人们希望同时拥有无限的步骤数和无限制的内存,对于RNN是否更像图灵完备程序,或者它们在实践中只类似于有限自动机,已经有了相当多的辩论。(这是个很长的话题,关于这个话题还有更多的内容要讲)。
因此,从这个角度来看,一个具有固定有限步数的机器似乎非常有限。
但是自回归transformer不是具有固定有限步数的机器,它们只是承诺在固定步数之后发射一个token,但是它们可以以无限制的方式继续下去,所以在这个意义上它们与RNN非常相似。
@dxu: "我还要再咬咬牙,要求把 "递归 "这个概念本身简化一下。什么是 "递归",为什么它很重要,以及在什么意义上,例如一个与MCTS之类的东西相连的前馈网络没有资格作为相关的 "递归"?"
"与某些东西挂钩 "可能会有区别。
(对我来说,一个重要的方面是计算是否从根本上被限制在一个固定的步骤上,而不是有一个潜在的无限制的循环。
自回归版本是一个有趣的妥协:每个标记的步骤数是固定的,但答案可以以无界的方式展开。
一个有趣的花絮是,对于传统的RNNs来说,每一个输入token是一个循环迭代,但在自回归transformer中,每一个输出token是一个循环迭代。)

△附:来自lesswrong播客评论

记得在Ilya的系列访谈中,曾经提到在2017 Transformer 那篇著名的论文-Attention is all you need发表前,OpenAI的一众工程科学人员一直在RNN中折腾词序列,并且已经在ANN计算层面解构了亚马逊评论中的人类情绪,只是苦于RNN固有的长序列问题,且并行能力差,参数量级也上不去。所以对于OpenAI来说,Transformer 一出来,就创造性地使用decode-only的架构替代RNN,利用其高效计算的方式处理长序列向量,顺着LLM的scaling law曲线,一年一个GPT版本,直到2020年的GPT-3的参数量级达到1750亿。

而且在另一次采访中,Ilya又提到了RNN,并说了那么一句:也许在今天机器学习的优化已经取得了很多进展,我们对神经网络架构工作原理的理解远远超过过去。因此通过一点点工作,就可能重回RNN,并与Transformer竞争。但似乎现在并没有这样做的必要,Transformer还有很多事情要做。参见从「维特根斯坦」哲学“语言游戏”到「伊利亚」的 大语言模型“GPT智能体” (三))访谈原文-对话三:GPT诞生的关键三点相关部分。

@mishka的这句评论让我对Transformer架构在GPT系列中的应用有了更深层次的理解,某种意义上,Ilya团队采用decode-only的架构之所以能替代RNN,正是这种对Transformer架构的创新应用方式模仿了RNN的工作原理,同时又能利用Transformer架构的并行计算与注意力机制优势。

为了更进一步地理解,找出了这篇2020年6月的论文:Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention。

Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention
▩Transformer在一些任务中取得了显著的性能,但由于它们的二次方复杂性,相对于输入的长度,它们对很长的序列来说是太慢了。为了解决这一限制,我们将自我关注表达为内核特征图的线性点积,并利用矩阵乘积的关联性,将复杂度从(N2)降低到(N),其中N为序列长度。我们表明,这种提法允许迭代实现,大大加速了自回归Transformer,并揭示了它们与递归神经网络的关系。我们的线性Transformer实现了与原生Transformer类似的性能,它们在非常长的序列的自回归预测上的速度高达4000倍。

△附:来自论文https://arxiv.org/pdf/2006.16236 [Submitted on 29 Jun 2020 (v1), last revised 31 Aug 2020 (this version, v3)]
接下来是众多网友的跟帖解读,摘录如下:
@dr_s
是的,那里显然有一些递归,但这样一个相对较低带宽的递归仍然可以工作得如此之好,这仍然令人惊讶。这更像是我写下我的想法,然后重读它们来收集我的想法,而不是我想象中我们的神经元可能有的那种循环。
也就是说,谁知道呢,也许我们大脑中的循环是多余的,或者只对学习反馈的目的有用,所以由外部系统训练的神经网络不需要它们。
@Sweetgum
从某种意义上说,当你用语言思考时,这就是正在发生的事情。这就是所谓的语音循环。
"语音环路
在英国认知心理学家Alan D. Baddeley(1934-)和Graham J. Hitch(1946-)于1974年提出的工作记忆模型中,这是一个在短时间内保存和处理听觉信息的组件。例如,如果一个人试图通过在拨号前的片刻重复一个电话号码来记住它,这种努力将发生在语音loop中。它包括一个语音存储或语音缓冲区(或声学或发音存储),其中的记忆痕迹在2秒后就会消失,除非发音控制过程(或发音排练系统)通过声下排练来刷新它们。因此,语音存储作为一个 "内耳",按时间顺序记忆语音,而发音控制过程作为一个 "内声",循环重复一系列的词,以防止它们衰减。此外,有人认为,语音环路对阅读理解很重要,实际上可能主要是作为一种语言学习工具,而不是记忆熟语的机制。巴德利和希奇工作记忆模型的其他组成部分包括视觉空间素描板、中央执行系统和最近引入的情节缓冲器。也叫衔接环。"
@danbmil99
这听起来很像我们写作时做的事(相对于谈话而言)。我记得库尔特-冯内古特曾经说过这样的话(找不到引文了,对不起)。
'作者之所以能听起来很聪明,是因为他们有时间上的优势。我的大脑很慢,人们都认为我很笨。但作为一个作家,我可以用自己的速度思考。'
这样想吧:与一个对时间的感知慢10倍的人聊天,会有什么感觉?或100倍或1000倍--或者,想象一下下棋,你的时钟比你的对手的时钟快几倍。
@FeepingCreature
我推测,我们的感知似乎只是平稳地变化,因为我们在token中编码了二阶(甚至三阶)的动态。从我对意识的外行理解来看,如果它不是离散的,我会感到惊讶。
@sludgepuddle
在我看来,这似乎与低带宽递归相反。在访问了上一次迭代的整个上下文窗口(除去第一个符号)之后,应该很明显的是,由该迭代中的节点值所编码的大部分相关信息原则上都可以被重构,除非第一个符号被证明是极其重要的,这种情况不太可能。如果这些信息在当前迭代中没有得到某种意义上的重构,那就很奇怪了。如果这是你唯一的目标,那么从一个迭代到下一个迭代的信息是一种低效的方式,但可能是非常高的带宽。
@FeepingCreature
▩▩这就是为什么要求一个LLM给出一个以 "是 "或 "不是 "开头的答案,然后给出一个解释,是最糟糕的方式。
@dr_s
▩▩我想说的是,与必须存在于中间层的大量信息相比,它的带宽很低。即使只是对数的分布也会被压缩成一个单一的返回值。你肯定可以发回比这更多的信息,但问题是这是否可行,或者它是否只是增加了混乱。

△附:来自lesswrong播客评论

接下来的另一段引起网友跟帖的评论则关乎Melanie Mitchell:Artificial Intelligence: A Guide for Thinking Humans 

Melanie Mitchell-Artificial Intelligence: A Guide for Thinking Humans 
梅兰妮-米切尔在2019年这本全面审视人工智能现状以及它如何重塑我们的世界的书中,将科学事实与科幻小说分开。
最近的科学事业没有像人工智能那样被证明是诱人的、可怕的、充满了奢侈的承诺和令人沮丧的挫折。获奖作者梅兰妮-米切尔是一位领先的计算机科学家,她现在揭示了人工智能的动荡历史以及最近围绕它的一系列明显的成功、宏伟的希望和新出现的恐惧。
在《人工智能》中,米切尔转向了当今有关人工智能的最紧迫问题:最好的人工智能程序到底有多聪明?它们是如何工作的?它们实际上能做什么,什么时候会失败?我们期望它们变得多么像人类,以及我们需要多长时间来担心它们超越我们?一路上,她介绍了现代人工智能和机器学习的主导模式,描述了最先进的人工智能程序、它们的人类发明者,以及支撑最近成就的历史思路。她会见了其他专家,如认知科学家、普利策奖得主、现代经典著作《哥德尔、艾舍尔、巴赫》的作者道格拉斯-霍夫斯塔特,他解释了为什么他对人工智能的未来感到 "恐惧"。她探讨了人工智能的炒作和实际成就之间的深刻脱节,提供了对该领域已经取得的成就以及它还有多少路要走的清晰感觉。
人工智能》交织着有关人工智能科学和其背后的人的故事,对该领域最有趣和最具煽动性的现代工作进行了清晰、迷人和易懂的描述,并加入了米切尔的幽默和个人观察。这本坦率、生动的书是理解今天的人工智能、其对 "人类水平 "智能的追求以及其对我们所有人的未来的影响的不可或缺的指南。

△附:来自amazon的本书内容介绍

网友@Cole Wyeth 感叹如果梅兰妮-米切尔能来,侯世达的这些话会变得稍微可信些了。

后@gwern跟着说:“但只是稍微有点。侯世达的怀疑在私下里已经积累了很长时间,其程度是他的专栏文章所不能表达的(将他在OP中的评论与他一周前在《大西洋》上发表的评论相比较!它们是如此的截然不同,我在想这是不是某种奇怪的深度伪造的恶作剧,但粗略的搜索一下,它似乎是合法的,没有人像米切尔那样说这是假的,而且文字听起来像侯世达)。在Twitter上,John Teets帮助地指出,米切尔有一本2019年的《Artificial Intelligence:A Guide for Thinking Humans》,其中她记录了一些我不熟悉的霍夫斯塔特的私人材料:”

▩Prologue: Terrified 
......
次会议是在2014年5月举行的,是由Blaise Agüera y Arcas组织的,他是一位年轻的计算机科学家,最近离开了微软的高级职位,帮助领导谷歌的机器智能工作。
......
会议的举行是为了让一群精新筛选的谷歌人工智能研究人员能够听取道格拉斯-霍夫斯塔特的意见,并与他进行交流,他是人工智能领域的一位传奇人物,是一本隐秘的名为《哥德尔、艾舍尔、巴赫:永恒的黄金辫》的名著作者,或者更简洁的说,GEB(读作 "gee-ee-be")。如果你是一个计算机科学家,或者是一个计算机爱好者,你很可能听说过它,或者读过它,或者试图读过它。
......
国际象棋和第一个怀疑的种子:在难以定位的会议室里,这群人包括大约20名谷歌工程师(加上道格拉斯-霍夫斯塔特和我),他们都是谷歌各个人工智能团队的成员。会议开始时,照例在房间里转了一圈,让大家做自我介绍。有几个人指出,他们自己在人工智能方面的职业是在年轻时阅读了GEB而受到启发的。他们都很兴奋,很想听听传奇人物霍夫斯塔特会对人工智能说些什么。
然后霍夫斯塔特站起来发言。"我对整个人工智能研究有一些看法,特别是在谷歌这里。"他的声音变得很有激情。"我被吓坏了。吓坏了。" 霍夫斯塔特继续说道。[2.在以下章节中,道格拉斯-霍夫斯塔德的引文来自我在谷歌会议后对他的后续采访;这些引文准确地反映了他在谷歌小组中的讲话内容和语气。]
他描述了当他在20世纪70年代第一次开始研究人工智能时,这是一个令人兴奋的前景,但似乎离实现还很远,以至于没有 "地平线上的危险,没有它实际发生的感觉"。创造具有类似人类智能的机器是一项深刻的智力冒险,是一项长期的研究项目,据说其成果至少 "距离诺贝尔奖有一百个"。[杰克-施瓦茨,引自G.-C.Rota, Indiscrete Thoughts (Boston: Berkhäuser, 1997), pg22。]
霍夫斯塔特认为人工智能在原则上是可能的:"'敌人'是像约翰-塞尔、休伯特-德雷福斯和其他怀疑论者,他们说这是不可能的。他们不明白,大脑是一大块服从物理规律的物质,计算机可以模拟任何东西......神经元、神经递质等的水平。在理论上,它是可以做到的。" 事实上,霍夫斯塔特关于在各个层面模拟智能的想法--从神经元到意识--在GEB中被详细讨论,并且几十年来一直是他自己研究的重点。
但实际上,直到最近,在霍夫斯塔特看来,一般的 "人类水平 "的人工智能在他(甚至他的孩子)的有生之年是没有机会出现的,所以他并不怎么担心这个问题。
在《GEB》的结尾处,霍夫斯塔特列出了关于人工智能的 "10个问题和猜测"。这里是其中之一:"是否会有能击败任何人的国际象棋程序?"霍夫斯塔德的猜测是 "没有"。"可能会有能在国际象棋上击败任何人的程序,但他们不会是专门的国际象棋选手。他们将是一般智力的程序。"
在2014年的谷歌会议上,霍夫斯塔特承认自己 "大错特错"。
国际象棋程序在20世纪80年代和90年代的快速改进,为他对人工智能短期前景的评估播下了第一颗怀疑的种子。尽管人工智能先驱赫伯特-西蒙(Herbert Simon)在1957年曾预言,国际象棋程序将在 "10年内 "成为世界冠军,但到了1970年代中期,也就是霍夫斯塔德在撰写《GEB》时,最好的计算机国际象棋程序只发挥了优秀(但不是伟大)业余爱好者的水平。霍夫斯塔德曾与艾略特-赫斯特结识,他是一位国际象棋冠军和心理学教授,曾就人类国际象棋专家与计算机国际象棋程序的区别写过大量的文章。实验表明,人类专家依靠对棋盘上模式的快速识别来决定走法,而不是所有国际象棋程序所使用的大量粗暴的前瞻搜索。在比赛中,最好的人类棋手可以将棋子的配置视为一种特殊的 "位置",需要某种 "策略"。也就是说,这些棋手能够迅速识别特定的配置和策略,作为更高层次的概念的实例。
赫斯特认为,如果没有这种感知模式和识别抽象概念的一般能力,国际象棋程序将永远达不到最好的人类水平。Hofstadter被Hearst的论点说服了。
然而,在20世纪80年代和90年代,计算机国际象棋有了很大的进步,这主要是由于计算机速度的急剧增加。最好的程序仍然以一种非常不人性化的方式下棋:进行广泛的前瞻以决定下一步。到了90年代中期,IBM的深蓝机器配备了专门用于下棋的硬件,已经达到了大师级水平,在1997年,该程序在6个回合中击败了卫冕世界象棋冠军加里-卡斯帕罗夫。

△附:来自lesswrong播客评论

@gwern 「也就是说,不管他自2010年以来关于DL的公开文章的尖酸刻薄的 "别担心,这不可能发生 "的语气是什么,Hofstadter在私下里说这些话至少有十年了*,从《深蓝》的某个地方开始,该书明显伪造了他的一个主要预测,此后他对scaling law的担忧也在加强;现在的情况是,两种范式中只有一种可能是真的,而Hofstadter最终翻到了另一种范式(ChatGPT-3.5,然后是GPT-4,显然是压垮骆驼的稻草)。

然而,米切尔早在这个播客之前就已经亲耳听到了这一切,而且似乎对霍夫斯塔特的担忧完全免疫(公开),所以我不会指望它能改变她的想法。(笔者注:似乎米切尔在书中对于侯世达所表示的恐惧持怀疑态度,包括米切尔本人)

* 我想知道还有哪些专家和精英对人工智能的私下看法与他们的公开声明会让你相信的不同?

针对@gwern最后一句疑问,有网友认为meta的首席科学家Yann LeCun可能也类似,公开宣讲和私底下自己想的完全不一样:(笔者注:在之前的公众号文章里多次表示,Yann LeCun到处怼AR-LLM,主要是要推他所lead的world model)

@NicholasKross "我听说类似这样的事情对Yann来说可能也是真的;比如,据说他在私下里更担心AI带来的灭绝风险,但在公开场合又做了同样的讽刺性推文。"

@25Hour "这在我看来是值得怀疑的;如果Yann LeCun真的相信人工智能是一个迫在眉睫的灭绝风险,或者甚至认为它是可信的,那么Yann希望通过嘲笑那些同样担心的人做什么或得到什么?"

@NicholasKross " 是的,这也是我的困惑。我可以想象有人暂时压制他们对AI与人类能否对齐的恐惧,在一个有能力实验室(meta AI)中努力达到权力的位置,然后从那里获取更好结果。但这似乎并不可行,因为:

  • 顶级人工智能能力实验室(OpenAI、DeepMind、Anthropic)在能力方面更有发言权。反正Meta AI是一个跟随领导者的实验室。
  • 我不认为 "以后而不是现在提出关切 "是一种战略上的好方法。我对诸如原子武器和生物武器的历史项目的政治性了解不多。但根据我粗略地了解,我不认为 "暗自担心 "在这些情况下是什么大满贯。
  • 具体来说,Yann已经是Meta/Facebook的首席AI科学家了!他是个很好的例子!除非Meta公司真的很快就会解雇人(或者Yann正在觊觎扎克伯格的位置),否则在这个阶段他还能获得什么更好的职业发展?

@Holly_Elmore 针对侯世达说的前馈系统以及单向神经元递归的潜力提出了疑问:关于前馈系统在原则上限制了深度思考的潜力的说法是什么?多方向的网络可以用较少的神经元做更多的事情,这是有道理的,但霍夫斯塔德似乎认为有些事情是前馈系统从根本上做不到的。

@Enrich_Grunewald翻出了GEB书中的人工智能章节相关内容做了解释:他在《Godel, Escher, Bach》中解释了他在这方面的一堆立场。如果我没记错的话,它在第十三章描述了原始递归和一般递归函数的极限。其基本思想(同样,如果我记得的话)是,一个证明系统只有在其一般递归的情况下才能推理其自身,而如果其一般递归,将永远能够推理其自身。我们看到,与计算机相比,人类的许多特殊之处在于人们有感觉、情感和自我概念,以及对过去情况和想法的反思。所有这些东西似乎都需要深层次的递归(这比书中实际写的要浅得多)。我们感到奇怪的是,ChatGPT可以模仿这些相同的输出,其思想的唯一递归元素是它可以将16位传递给下一个运行。

@JoshuaFox 则认为侯世达是个神秘主义者:在霍夫斯塔特的奇点峰会演讲时,我想知道他为什么不 "按部就班",结果发现他是个神秘主义者:他相信--但不是二元论者--有些东西,比如心灵,最终,基本上,本质上,不可能理解或描述。2023年的这次采访表明,新一代的人工智能不仅仅改变了他对人工智能潜力的看法:它还击中了他的神秘主义的核心。

@Dr_Manhattan 则认为:他只是一个事实上的神秘主义者:思想心灵是如此复杂,以至于它可能是神秘的(但当然他相信它最终只是物理学)。这个立场是可以更新的,而他显然已经更新了。

参考

-Game Thinking TV:Gödel, Escher, Bach author Doug Hofstadter on the state of AI today

https://youtu.be/lfXxzAVtdpU



END


扫码加群,

立变AI🍚!


AI范儿读者群


👇关注、标星哦~


那些prompt了我的,

是否也prompt了你...


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存